Increasing Data Center Efficiency by Optimizing GPU Utilization Session ID: S51297

Milan Diebel, Sr Product Line Manager NVIDIA
Varun Nanda Kumar, Sr Product Manager NVIDIA

演讲者

Milan Diebel: NVIDIA 高级产品线经理
Varun Nanda Kumar: NVIDIA 高级产品经理

议程

NVIDIA 数据中心 GPU 上的工作负载
数据中心产品组合：Ada Lovelace 架构
产品可用性：OEM 和云端

NVIDIA 技术栈与数据中心平台

NVIDIA 技术栈概览

上图展示了 NVIDIA 从底层芯片到顶层 AI 应用框架的完整生态系统。
- 芯片 (Chips): GPU, CPU, DPU。
- 从云到边缘的机器人系统 (Cloud-to-Edge Datacenter-to-Robotic Systems): 包括 RTX, DGX, HGX, EGX, OVX, SuperPOD, AGX 等系统。
- 加速库 (Acceleration Libraries): 提供一系列优化的软件库，如 RAPIDS, Spark, cuDNN, TensorRT, Triton 等。
- 平台 (Platforms): 建立在库之上的三大平台：NVIDIA HPC, NVIDIA AI, NVIDIA OMNIVERSE。
- AI 应用框架 (AI Application Frameworks): 针对特定领域的框架，如 MONAI, MAXINE, NEMO, MERLIN, MORPHEUS, METROPOLIS, HOLOSCAN 等。

为实现最大灵活性的数据中心平台

该平台提供了灵活的 GPU 利用方式，从分区技术到多 GPU 解决方案。
- 数据中心产品组合: 核心产品包括 NVIDIA H100, L4, L40。
- 分区技术 (Partitioning Technologies):
- MIG (Multi-Instance GPU): 可将单个 GPU 划分为多个独立的实例（仅适用于 A100, H100, A30）。
- 使用 vGPU 进行虚拟化 (Virtualization with vGPU): 支持 GPU 虚拟化。
- 使用 CUDA MPS 的多进程 (Multi-Process with CUDA MPS): 允许多个 CUDA 进程共享单个 GPU。

多 GPU 和 SuperPOD 解决方案 (Multi-GPU & SuperPOD solutions):
- HGX: 高性能计算平台。
- OVX: 面向 Omniverse 和视觉计算的系统。
- EGX: 边缘计算平台。
- DGX SuperPOD: 用于大规模 AI 训练的超级计算集群。

OVX 和 Launchpad 上的新兴工作负载

本页展示了使用 NVIDIA RTX 的专业可视化用例。

Omniverse 演示: 展示了工厂数字孪生的复杂模拟场景，可用于协作和规划。
生成式 AI 演示: 展示了利用 AI 进行内容创作，例如根据草图生成逼真的室内设计渲染图，以及生成全景风景图。

Ada Lovelace 架构与产品

本节将介绍 Ada Lovelace 架构。

Ada Lovelace GPU 交付通用价值

Ada Lovelace 架构通过新设计、高级功能和通用性为各类应用带来价值。
- 新架构 (New Architecture):
- 新的流式多处理器 (New Streaming Multiprocessor)
- 第四代 Tensor Cores
- 第三代 RT Cores

高级功能 (Advanced Features):
- DLSS 3
- 着色器执行重排序 (Shader Execution Reordering, SER)
- 硬件编解码，支持 AV1 编码 (Encode/Decode, AV1 Encode)
通用 GPU (Universal GPU):
- 适用于多种工作负载，包括 Omniverse、渲染、虚拟工作站、3D 图形、高性能计算 (HPC)、视频会议等。

Ada Lovelace 产品线

GTC2023 推出了两款基于 Ada Lovelace 架构的新产品：NVIDIA L4 和 L40。

NVIDIA L4 24GB:
- 定位: 最佳低功耗通用 GPU (AI + 图形 + 视频)
- 规格: 1-slot LP (薄型), 72W 功耗
- 特点: 紧凑通用、低功耗、适用于任何服务器、高密度视频流、边缘 AI 和 VDI。
NVIDIA L40 48GB:
- 定位: 速度最快的通用 GPU (AI + 图形 + 视频)
- 规格: 2-slot FHFL, 300W 功耗
- 特点: 最快的渲染和光线追踪、支持 Omniverse、FP32 HPC、生成式 AI、单 GPU AI 训练与推理、高端虚拟工作站。

性能分析

NVIDIA L40 视觉计算性能

该图表对比了 L40 与 A40 在最高性能 RTX 虚拟工作站场景下的相对性能。

Omniverse (1080p 和 4k): 性能最高提升至 3.8 倍 (4k)。
渲染应用: 性能最高提升至 5.2 倍。
SPECviewperf 2020: 性能最高提升至 1.7 倍。

NVIDIA L40 计算与视频性能

该图表对比了 L40 与 A40 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.6 倍。
- DL Inference: 性能最高提升至 1.5 倍。
- Video Streams: 性能最高提升至 3.7 倍。

NVIDIA L4 视觉计算性能

该图表对比了 L4 与 T4 在 Omniverse、云游戏和虚拟工作站场景下的相对性能。
- Omniverse (1080p): 性能最高提升至 4.0 倍。
- Cloud Gaming: 性能最高提升至 2.8 倍。
- SPECviewperf 2020: 性能最高提升至 1.7 倍。

NVIDIA L4 计算与视频性能

该图表对比了 L4 与 T4 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.4 倍。
- DL Inference (BERT Large <10ms Latency): 性能最高提升至 2.4 倍。
- Encode/Decode: 性能最高提升至 2.7 倍。

分数 vGPU 性能

此图展示了通过虚拟 GPU (vGPU) 提高利用率的情况。图表显示，在单个 L40 GPU 上通过 vGPU 划分出多个虚拟机 (VM) 时，所有 VM 的性能总和可以超过单个 VM 满负荷运行时的性能（即超过 100%），这表明 GPU 资源得到了更充分的利用。例如，使用 L40-12Q 配置文件（每个 VM 12GB 显存）运行 4 个 VM 时，总性能达到了 131%。

虚拟工作站市场细分

本页分析了如何通过部署新的 L4 和 L40 GPU 来提高数据中心效率，用更少的基础设施完成更多工作。
- 入门级虚拟工作站:
- 使用 L4 替代 T4，每美元性能提升 40%，每用户成本降低 27%。

中端虚拟工作站:
- 使用 L4 替代 A10，每美元性能提升 29%，每用户性能提升 24%。
高端虚拟工作站:
- 使用 L40 替代 A40，每美元性能提升 20%，每用户性能提升 58%。

数据中心效率与优化

为您的工作负载选择合适的GPU

该页面对比了 NVIDIA L4 和 NVIDIA L40 在四种不同工作负载场景下的适用性：

Omniverse 与渲染 (Omniverse & Rendering):
- NVIDIA L4: 适用于 1080P 分辨率。
- NVIDIA L40: 适用于 4K 分辨率。
深度学习推理与视频 (DL Inference & Video):
- NVIDIA L4: 适用于轻量级深度学习 (Light DL) 和重度视频处理 (Heavy Video)。
- NVIDIA L40: 适用于重度深度学习 (Heavy DL) 和轻量级视频处理 (Light Video)。
高性能计算 (HPC):
- NVIDIA L4: 适用于入门级 (Entry) HPC 任务。
- NVIDIA L40: 适用于中端 (Mid-Range) HPC 任务。
云游戏 (Cloud Gaming):
- NVIDIA L4: 适用于 Android/PC 平台，1080p/720p 分辨率。
- NVIDIA L40: 适用于 PC 平台，4K 分辨率。

理解数据中心效率

要全面理解数据中心的效率，需要从三个层面进行评估，从而发现节省成本的机会：

GPU 层面 (基础):
- 仅比较 GPU 本身的性能。例如，L40 相较于 T4，每美元性能 (Perf/$) 提升 1.8 倍。
- 这种评估方式无法正确体现 GPU 的全部价值。
服务器层面 (更好):
- 在服务器级别进行比较，包含服务器和托管成本。例如，一台包含 8x L40 的服务器与一台包含 4x T4 的服务器相比，每美元性能提升 4.5 倍。
- 这种评估方式能更好地突显 GPU 的完整价值。
数据中心层面 (最佳):
- 在整个数据中心的尺度上进行评估，考虑功率限制 (Power Limitation) 或电源使用效率 (PUE)、机架空间限制 (Rack Space Limitation) 以及预算限制 (Budget Limitation) 等综合因素。

GPU 提升数据中心效率

通过采用 GPU，数据中心可以实现巨大的总拥有成本 (TCO) 节省和能源足迹的减少。以一个 2MW 数据中心的人工智能视频服务为例：

CPU 服务器方案 (双路 Xeon 8362):
- 需要 1900 台 服务器。
- 总功耗 1700 kW。
- 3 年 TCO 为 2600 万美元。
L4 服务器方案 (每台服务器 8x L4):
- 仅需 16 台 服务器。
- 总功耗 23 kW。
- 3 年 TCO 仅 50 万美元。

对比结果:

每美元性能提升 50 倍。
节省 99% 的能源。
节省 2500 万美元 的成本。

注：测量性能基于 CV-CUDA 端到端视频流水线，包括预处理、解码、推理(Seqformer)、编码、后处理。NVIDIA L4 (TensorRT 8.6) 对比 CPU (Platinum 8362, OpenCV 4.7, PyT inference)。系统配置请参考图片底部详细说明。

产品可用性

本节将介绍 NVIDIA L4 和 L40 的可用性情况。

Google Cloud Platform 宣布提供 NVIDIA L4

Google Cloud Platform (GCP) 现已提供搭载 NVIDIA L4 GPU 的实例。下表列出了 g2-standard 实例类型的详细配置：

Instance	GPU count	GPU Memory (GB)	vCPU	Default Memory (GB)	Custom Memory range* (GB)	Network BW (Gbps)	[Optional] Local SSD (GB)
g2-standard-4	1	24	4	16	16-32	10	375
g2-standard-8	1	24	8	32	32-54	16	375
g2-standard-12	1	24	12	48	48-54	16	375
g2-standard-16	1	24	16	64	54-64	32	375
g2-standard-24	2	48	24	96	96-108	32	750
g2-standard-32	1	24	32	128	96-128	32	375
g2-standard-48	4	96	48	192	196-216	50	1,500
g2-standard-96	8	192	96	384	384-432	100	3,000

可用区域: us-central1 (Iowa), asia-southeast1 (Singapore), europe-west4 (Netherlands)。

在云端加速您的工作负载

各大主流云服务提供商均提供了丰富的 NVIDIA GPU 实例来加速不同类型的工作负载。

工作负载类型:
- 左侧: 大型/复杂 CAD 模型、渲染、PLM、视频编辑、3D 医学成像重建、视频流、云游戏。
- 中间: 计算机视觉、视频会议、AR/VR 特效、推荐系统、对话式 AI。
- 右侧: 大规模深度学习训练、HPC 与数据科学、大规模推荐模型、自然语言处理、聊天机器人。
云平台 GPU 选项 (部分列举):
- AWS: NVIDIA T4 (EC2 G4dn), A10G (EC2 G5), T4G (EC2 G5g), V100 (EC2 P3), A100 (EC2 P4)。
- Microsoft Azure: NVIDIA A10 (GPU-P) (Azure NV A10 v5), T4 (Azure NC T4 v3), V100 (Azure NCv3), A100 (Azure ND A100 v4)。
- Google Cloud: NVIDIA L4 (GCP), T4 (GCP T4), V100 (GCP V100), A100 (GCP A100)。
- Oracle Cloud: NVIDIA A10 (VM.GPU1.X), V100 (VM.GPU3.X), A100 (BM.GPU4.X)。

NVIDIA L4 在 Google Cloud 上被特别标注，是本次介绍的重点。

NVIDIA L4 和 NVIDIA L40 OEM 可用性

来自 20 多家合作伙伴的 120 款系统现已支持 NVIDIA L4 和 L40 GPU。

主要 OEM 合作伙伴及其支持的服务器型号包括：

Dell Technologies:
- Dell PowerEdge R750/R750xa, R760/R760xa, R7525/R7625
Hewlett Packard Enterprise:
- HPE ProLiant DL380 Gen11/DL380a Gen11, DL385 Gen11
Lenovo:
- Lenovo ThinkSystem SR650 V2/V3, SR670 V2, SR675 V3, SR665 V3
其他合作伙伴:
- Supermicro
- GIGABYTE
- QCT

总结

通过优化 GPU 利用率来提高数据中心效率，核心要点如下：

Ada Lovelace 性能飞跃 (Ada Lovelace Performance Leap): 新架构带来了显著的性能提升。
选择正确的 GPU (Selecting the Right GPU): 根据具体工作负载在 NVIDIA L4 和 NVIDIA L40 之间做出选择。
优化数据中心 (Optimizing the Data Center): 在数据中心层面进行系统性优化，以实现最大化的效率和成本节约。